urpo

摩尔线程大模型 URPO框架入选国际顶级学术会议 AAAI 2026

摩尔线程提出的新一代大语言模型对齐框架 —— URPO 统一奖励与策略优化，相关研究论文近日被人工智能领域的国际顶级学术会议 AAAI 2026 收录，为简化大模型训练流程、突破模型性能上限提供了全新的技术路径。